Sunteți pe pagina 1din 13

Onu Andrei grrupa 2

Arbori de clasificare
10.3. Arborii de clasificare

Arborii de clasificare sunt probabil cele mai cunoscute i cele mai larg utilizate
metode de nvare din aplicaiile de tip data mining. Popularitatea lor st n simplitatea lor
conceptual, uurina n utilizare, viteza de calcul, robusteea lor cu privire la lipsa unor date
i a valorilor extreme i, mai ales, uurina de a interpreta regulile generate de acestea. Pentru
a separa observaiile aparinnd diferitelor clase, metodele bazate pe arbori obin reguli simple
i lmuritoare pentru relaia existent ntre variabila int i variabilele de previziune.

Figura Error! No text of specified style in document..6 Lift Chart

Dezvoltarea unui arbore de clasificare corespunde cu faza de antrenare a modelului i


este reglementat de o procedur recursiv de natur euristic, bazat pe o schem de
partiionare divide-et-impera cunoscut ca inducia de tip top-down a a arborilor de decizie,
descris de Procedura 10.1. Unele dintre mecanismele care guverneaz dezvoltarea unui
arbore pot fi implementate urmnd abordri diferite, n aa fel nct arborii de clasificare
reprezint o clas larg de metode pe care le vom descrie mai nti n termeni generali i apoi
ilustra n detaliu pentru anumite cazuri specifice.
Procedura 10.1 Inducia de tip top-down a arborilor de decizie

1. n faza de iniializare, fiecare observaie este plasat n nodul rdcin al arborelui.


Rdcina este inclus n lista L a nodurilor active.
2. Dac lista L estea goal procedura este oprit, altfel un nod J aparinnd listei L este
selectat, este ndeprtat din list i este folosit ca nod pentru analiz.
3. Regula optim de mprire a observaiilor coninute n J este apoi determinat, pe baza
unui criteriu adecvat prestabilit. Regula de mprire generat astfel este apoi aplicat, iar
nodurile descendente sunt construite prin subdivizarea observaiilor coninute n J. Pentru
fiecare nod descendent condiiile pentru oprirea subdivizrii sunt verificate. Dac acestea
sunt ntanlite nodul J devine frunz, creia i este desemnat clasa int potrivit majoritii
observaiilor coninute n J. Altfel, nodurile descendente sunt adugate n lista L. n final
pasul 2 este repetat.

Observaiile antrenrii setate iniial coninute n nodul radcin ale arborelui sunt
divizate n subseturi disjuncte care sunt plasate provizoriu n dou sau mai multe noduri
descendente (ramificare). La fiecare nod determinat astfel, se aplic un control pentru a
verifica dac sunt ntmpinate condiiile pentru oprirea dezvoltrii nodului. Dac cel puin una
din aceste condiii este ntmpinat, nu se mai realizeaz nici o subivizare iar nodul devine o
frunz a arborelui. Altfel, subdivizarea observaiilor coninute n cadrul nodului este
continuat. La sfritul procedurii, cnd nici un nod al arorelui nu mai poate fi subdivizat mai
departe, fiecare nod frunz este etichetat cu valoarea clasei creia i aparin majoritatea
observaiilor din nod, potrivit unui criteriu numit votul majoritii.

Subdivizarea exemplelor din fiecare nod este realizat pe baza unei reguli de
mprire, denumit i regul de separare, ce va fi selectat pe baza unei funii specifice de
evaluare. Prin schimbarea parametrlor utilizai pentru identificarea regulii de mprire, se pot
obinte versiuni diferite ale arborelui de clasificare. Majoritatea acriteriilor de evaluare
propuse mpart obiectivul de maximizare a uniformitii clasei int pentru observaiile care
sunt plasate n fiecare nod generat prin separare. Regulile diferite de mprire sunt de obicei
bazate pe valoarea unor variabile explicative care descriu observaiile, n concordan cu
metodele specifice care vor fi discutate n seciunea urmtoare.
La sfritul procedurii, setul de reguli de mprire care se pot gsi dea lungul cii care
conecteaz rdcina copacului cu un nod frunz constituie o regul de clasificare 1.

n timpul fazei de previziune, pentru a atribui clasa int unei noi observaii, o cale este
urmat de la nodul rdcin ctre nodul frunz prin respectarea secvenei de reguli aplicate
valorilor atributelor observaiei noi. Clasa int anticipat, astfel atins, coincide apoi clasei cu
care a fost etichetat nodul frunz n timpul fazei de dezvoltare, adic clasa cu majoritatea
observaiilor din setul de antrenament care au czut n acel nod frunz.

Am observat n seciunea 10.1 c majoritatea clasificatorilor asociaz cu fiecare


observaie o funie scor, care este apoi convertit ntr-o previziune a clasei int. Acest lucru
este adevrat i pentru arborii de clasificare, care asociaz fiecare observaie coninut ntr-un
nod frunz cu proporia cea mai nalt din clasa int pentru observaiile coninute n acea
frunz, care de asemenea determin etichetarea sa prin votul majoritii. De exemplu, dac
ntr-un nod frunz exist 100 de clieni ai unei companii iar 85 dintre acetia au rspuns
pozitiv n trecut unei campanii de marketing, atunci valoarea de 85% poate fi interpretat ca
probabilitatea ca un client ce cade n acel nod frunz, pe baza valorii atributelor sale i a
regulilor de clasificare generate, va rspunde n mod pozitiv unei campanii similare
desfurate n viitor.

Pornind de la un set de date de antrenament este posibil construirea unui numr


exponenial de arbori de clasificare distinci. Poate fi artat c problema determinrii arborelui
optim este dificil din punct de vedere computaional. n consecin, metodele pentru
dezvoltarea arborilor de clasificare sunt de natur euristic.

Dup cum s-a observat, schema generrii arborilor de clasificare descris n procedura
10.1 este un cadru general i necesit ca unii pai s fie specificai nainte de a se deriva un
algoritm de clasificare implementabil. n urmtoarele seciuni vom examina componentele
induciei de tip top-down a procedurii arborilor de decizie.

Regulile de mprire. Pentru fiecare nod al arborelui este necesar specificarea


criteriului utilizat n identificarea regulii optime pentru mprirea observaiilor i pentru
crearea nodurilor descendente. Aa cum se arat n seciunea urmtoare, exist cteva criterii
alternative, care difer n numrul de descendeni, numrul de atribute i msurtorile de
evaluare.

1
O caracteristic a arborilor garanteaz c exist o singur cale care conecteaz nodul rdcin cu toate
celelate noduri, n mod particular cu nodurile frunz.
Criteriul de oprire. La fiecare nod al arborelui diferite criterii de oprire sunt aplicate
pentru a stabili dac dezvoltarea ar trebui continuat recursiv sau dac nodul ar trebui
considerat ca fiind frunz. n acest caz de asemenea, diferite criterii au fost propuse, care au
ca rezultat topologii diferiteale arborilor generai, toate celelalte elemente fiind egale.

Criterii de tiere. n final, este cazul s se aplice cteva criterii de tiere, mai nti
pentru a evita creterea excesiv a arborelui n timpul fazei de dezvoltare (pre tiere), apoi
pentru a reduce numrul de noduri dup ce arborele a fost generat (post tiere).

Figura Error! No text of specified style in document..7 Exemplu de arbore de clasificare

Figura 10.7 arat un arbore de clasificare obinut pentru setul de date descris n
exemplul 5.2, privind analiza loialitii n industria telefoniei mobile, ce va fi analizat n
detaliu n seciunea 10.3.3.

10.3.1. Reguli de mprire


Arborii de clasificare pot fi mprii n arbori binari i generali n funcie de numrul
maxim de descendeni pe care fiecare nod are voie s-l genereze.

Arborii Binari. Un arbore este numit binar dac fiecare nod are cel mult dou ramuri.
Arborii binari reprezint n mod natural subdivizarea observaiilor coninute ntr-un nod
bazate pe valoarea uni atribut explicativ de tip binar. De exemplu, clienii care au autorizat
trimiterea de materiale promoionale prin pot pot fi plasai n nodul descendent drept iar
clienii care au refuzat astfel de materiale n nodul stng. Cnd avem de-a face cu atribute
categorice cu mai mult de dou clase, arborii binari trebuie s formeze dou grupuri de
categorii pentru a reliza o mprire. De exemplu, clienii din zonele {1, 2} pot fi plasai n
ramura dreapt iar cei din zonele {3, 4} pot fi plasai n ramura stng. Atributele numerice
pot fi separate pe baza unei valori prag. De exemplu, clienii cu vrsta mai mic de 45 de ani
pot fi plasai n nodul drept iar cei cu vrsta mai mare n nodul stng. n final, arborii binari
pot fi de asemenea folosii pentru a dezvolta clasificarea de tip multicategorie.

Arbori de clasificare cu mprire multipl. Un arbore este de tip mprire multipl


dac fiecare nod are un numr arbitrar de ramuri. Acest lucru permite manipularea mai uoar
a atributelor categorice de tip multi-valoare. Pe de alt parte, cu atributele numerice, este din
nou necesar gruparea mpreun a valorilor adiacente. Operaiunea aceasta este practic
echivalentul discretizrii, obinut n mod dinamic prin nsui algoritmul din timpul fazei de
dezvoltarea a arborelui.

Pe baza dovezilor empirice, nici o diferen semnificativ nu pare s ias din


acurateea predictiv a arborilor de clasificare n tandem cu numrul maxim de noduri
descendente.

O alt distincie relevant din cadrul metodei arborilor de clasificare implic modul n
care atributele explicative contribuie la definiia regulii de mprire la fiecare nod. n
particular, putem face distincie ntre arbori univariai i multivariai.

Arbori univariai. Pentru arborii univariai regula de mprire este bazat pe


valoarea asumat de ctre un singur atribut explicativ Xj . Dac atributul selectat este
categoric, observaiile de la un nod dat sunt divizate pe baza condiiilor de forma Xj Bk, unde
colecia {Bk} este compus din subseturi disjuncte i exhaustive ale setului de valori asumate
de atributul Xj. De exemplu, pentru un atribut binar care ia valorile {0} i {1}, cele dou
subseturi B0 i B1 corespund valorilor {0} i {1}, aa cum reiese din Figura 10.8. Figura 10.9
arat partiia pentru un atribut nebinar categoric. Dac Xj este un atribut numeric, partiia
univariat const ntr-o regul sub forma Xj b sau Xj > b, cum reiese din Figura 10.10 pentru
vrsta unui client, depinznd de o valoare de prag b determinat de algoritm. Arborii
univariai sunt de asemenea cunoscui ca arbori de axa paralela, din moment ce regula de
mprire induce o partiie a spaiului observaiilor n hiper-dreptunghiuri, determinate de
intersecia a jumtilor de spaii ale caror hiperplanuri suport sunt paralele cu componentele
vectorului de instane, dup cum reiese din Figura 10.11.
Figura Error! No text of specified style in document..8 Impartirea univariata a unui atribut binar

Figura Error! No text of specified style in document..9 Impartirea univariata a unui atribut nominal

Figura Error! No text of specified style in document..10 Impartirea univariata a unui atribut numeric
Figura Error! No text of specified style in document..11 Clasificarea pe baza regulilor de impartire univariate
(axe paralele). Fiecare linie corespunde unei reguli de impartire generata la un nod in dezvoltarea arborelui.

Arbori Multivariai. Pentru arborii multivariai, partiia observaiilor la un nod dat se


bazeaz pe valoarea asumat de o funcie ( x1, x2, . . . , xn ) a atributelor i conduce la o regul
de forma ( x ) b sau ( x ) > b. Metode diferite au fost propuse prin care funcia
reprezint o combinaie liniar de variabile explicative. n acest caz, expresia care conduce la
separarea observaiilor ia forma =1

unde valoarea prag b i coeficienii w1,w2,...,wn ale combinaiei liniare trebuie s fie
determinate, de exempu prin rezolvarea unei probleme de optimizare pentru fiecare nod, la ca
pentru arborii de clasificare generai prin intermediul varibilelor discrete ale vectorilor de
sprijin. Arborii multivariai sunt de asemenea cunoscui ca arbori de decizie oblici, deoarece
genereaz partiii poligonale a spaiului observaiilor prin separarea hiperplanurilor, dup cum
reiese din figura 10.12.
Figura Error! No text of specified style in document..12 Clasificarea pe baza regulilor de impartire
multivariate (drepte oblice). Fiecare linie dreapta corespunde unei reguli de impartire generata la un nod in
dezvoltarea arborelui.

Arborii oblici sunt de obicei caracterizai de o acuratee de previziune mai mare dect
arborii univariai, puse n faa unei interpretabiliti reduse a regulilor de clasificare generate.
n multe cazuri, un numr limitat de separare a hiperplanurilor poate fi de ajuns pentru a
clasifica cu acuratee nalt instanele, n vreme ce pentru a obine acelai rezultat un arbore
univariat ar avea nevoie de partiia spaiului observaiilor n mai multe hiper dreptunghiuri.
Figura 10.13 arat un exemplu de dataset bidimensional pentru care cele dou clase int pot
fi uor separate de o singur linie oblic, n vreme de ar avea nevoie de un numr mare de
reguli univariate.

Trebuie observat de asemenea i faptul c numrul de regiuni generate este o funcie a


numrului de frunze din arbore, i astfel a profunzimii sale. Pentru a fi mai exaci, arborii
oblici genereaz de obicei unu numr mai mic de reguli de clasificare n comparaie cu arborii
univariai.

10.3.2. Criterii de mprire univariat


Dei sunt de obicei caracterizate de o acuratee sczut, algoritmii care dezvolt arbori
de clasificare bazai pe reguli univariate sunt mai populari dect corespondenii multivariai,
parial datorit simplitii i interpretabilitii regulilor generate i parial datorit faptului c
au fost primii propui.

Figura Error! No text of specified style in document..13 Clasificarea pe baza unei singuri reguli de impartire
multivariate (drepte oblice) pentru un set de date care nu poate fi impartit cu acuratete prin reguli univariate
Componenta principal care difereniaz variantele arborilor de clasificare univariai
propui pn acum este regula de mprire, utilizat pentru a identifica cel mai bun atribut
explicativ din cele disponibile i de a selecta cel mai eficient criteriu de partiionare dintre
cele pe care le induce. De obicei, ambele alegeri sunt fcute calculnd o funcie de evaluare,
pentru fiecare atribut i pentru fiecare partiie posibil, lucru care furnizeaz o msur de
eterogenitate n valorile clasei int intre exemplele aparinnd nodului printe i cele
aparinnd descendenilor. Maximizarea funciei de evaluare identific aadar partiia care
genereaz nodurile descendente mai omogene dect nodul printe.

Fie ph propoia de exemple a clasei int vh, h , la un nod q dat i fie Q numrul
total de instane ale lui q. Vom avea

= 1
=1

Indexul de eterogenitate I(q) al unui nod este de obicei o funcie a frecvenelor relative ph,
h , a valorilor clasei int pentru exemplele nodului, i trebuie s ndeplineasc trei cerine:
trebuie s aib valoarea maxim cnd exemplele de la nod sunt distribuite omogen printre
toate clasele; trebuie s aib valoarea minim cnd toate instanele de la nod aparin unei
singure clase; i trebuie s fie o funcie simetric cu privire la frecvenele relative ph, h .

Printre indicii de eterogenitate ai unui nod q care satisfac aceste proprieti, de


asemenea cunoscute i ca msuri de impuritate sau de neomogenitate, cele mai populare sunt
indexul clasificrilor greite, indexul de entropie i indexul Gini.

Indexul clasificrilor greite. Indexul clasificrilor greite este definit ca

Miscl() = 1 max

i msoar proporia exemplelor de clasificri greite cnd tuturor instanelor nodului q au


fost repartizate clasei de care majoritatea din ele aparin, conform principiului votului
majoritar.

Indexul de entropie. Entropia este definit ca



Enpropy() = 2 ;
=1

a se preciza, prin convenie, c 0 log20 = 0.


Figura Error! No text of specified style in document..14 Grafic al indexului clasificarilor gresite (linia
discontinua), indexul Gini (linia punctata) si indexul de entropie (linia continua) pentru un atribut tinta binar in timp
ce frecventa atributelor unei clase variaza

Indexul Gini. Indexul Gini este definit astfel


H

Gini(q) = 1 p2h
h=1

ntr-o problem de clasificare binar msurile de impuritate definite mai sus ating valoarea lor
maxim cnd p1=p2=1-p1=0.5, i sunt 0 atunci cnd p1=0 sau p1=1, dup cum reiese din
Figura 10.14.

Criteriile de clasificare univariate bazate pe ctigul de informaii compar unul din


indicii de impuritate evaluat pentru nodul printe cu acelai index, calculat pentru fiecare set
de noduri descendente, i apoi alegerea atributelor i a partiiilor corespunztoare care
maximizeaz diferena.

Fie I(.) unul din indicii de impuritate definii anterior, presupunem c o regul de
mprire separ exemplele coninute de un nod q n K noduri descendente {q1, q2,,qk},
fiecare coninnd Qk instane. Dac am analiza partiia provenit de la un atribut categoric Xj
lund Hj valori distincte, setul de exemple de la q pot fi separate n Hj subseturi disjuncte,
dup cum reiese din Figura 10.9. n acest mod avem K=Hj, iar nodul descendent qj conine
exemplele pentru care variabila explicativ Xj ia valoarea vj . Dac Hj > 2 , aceast partiie
este posibil doar dac arborele este de tip general. Dac un arbore binar este dezvoltat, este
necesar divizarea valorilor Hj n dou seturi care s nu fie goale i apoi calcularea indicelui
de eterogenitate pentru toate 2 1 partiii posibile. n final, dac atributul Xj este numeric,
exemplele pt fi subdivizate pe intervale de valori, dup cum reiese i din figura 10.10. Pentru
a evita analiza tuturor valorilor prag posibile pentru separare, algoritmul realizeaz o cutare
binar printre valorile luate de atributul Xj n setul de date D.

Impuritatea nodurilor descendente, i n consecin impuritatea regulii de mprire,


este definit astfel


(1 , 2 , ) = ( )

=1

Astfel, impuritatea unei partiii este exprimat de suma ponderat a impuritilor


fiecrui nod descendent, unde fiecare pondere este egal cu procentul de exemple din nodul
printe care sunt plasate n descendentul corespondent.

Algoritmii pentru dezvoltarea arborilor univariai selecteaz pentru fiecare nod regula
i atributul corespunztor care determin valoarea minim a expresiei (10.21). Aceast alegere
este echivalentul maximizrii ctigului de informaii (.), definit ca

1
(, 1 , 2 , , ) = () (, 1 , 2 , , ) = () ( )

=1
Observatii

Un arbore de clasificare este folosit in luarea deciziilor, acesta partiioneaz m mod recursiv
mulimea de antrenament pna la obinerea nodurilor finale, care conin fie numai elemente
din aceiai categorie fie elemente din categoria dominant.

Decizia poate fi interpretat ca numrul de decizii luate de la nodul rdcin pn la nodul


frunz.

Un arbore de clasificare poate fi interpretat ca fiind o reprezentare a unui procedeu de


clasificare, nodurile interne sunte testele pentru atribute iar nodurile frunze fiind clasele.

O regul de clasificare este format pornind de la nodul rdcin i pn la nodul frunz i


este de tip IF-THEN.

Utilizarea unui arbore de decizie ajut la buna clasificare a rezultatelor dar i la luarea unor
decizii optime prin obinerea unor reguli uor de neles i explicat.