Documente Academic
Documente Profesional
Documente Cultură
https://docs.google.com/forms/d/1FKF81qQ-
vgxtV4tMnWvbDV0jx0WFiiFgYiRFpiKU0eY/edit
ARBORI DE DECIZIE
12.1 ALGORITMUL TDIDT - CAZUL ATRIBUTELOR
CATEGORICALE
Algoritmul TDIDT (Top-Down Induction of Decision Trees) este un algoritm
de tip Greedy care stă la baza unei clase de algoritmi inventaţi în anii 1960
(ID3, C4.5 etc.). Dezvoltarea lor spectaculoasă a contribuit decisiv la
automatizarea producerii regulilor de decizie, devenind în scurt timp
alternativa de succes a sistemelor expert în rezolvarea acestei probleme.
Pentru prezentarea lor considerăm, ca şi până acum, că datele de
antrenament sunt organizate într-un tabel (vezi tabelul 2.1 a) care conţine
pe linii instanţele, pe primele coloane atributele (variabilele), iar pe
ultima coloană clasele aferente instanţelor. De asemenea, într-o primă
etapă presupunem că atributele sunt categoricale, şi că este satisfăcută
condiţia de adecvare a datelor. Ultima condiţie se referă la faptul că nu
există conflicte în date, adică nu există exemple de instanţe identice, dar
clasificate diferit. Ideea care stă la baza algoritmului TDIDT este de a
construi un arbore de decizie în care nodul rădăcină este tabelul iniţial al
datelor de antrenament, iar celelalte noduri sunt subtabele obţinute
recursiv prin divizare în raport cu valorile atributelor. Nodurile terminale
ale arborelui obţinut sunt subtabele care conţin instanţe din aceeaşi clasă.
Algoritmul TDIDT este următorul (Bramer, 2013):
Dacă toate instanţele sunt în aceeaşi clasă atunci
Returneză ca rezultat acea clasă.
Altfel
Selectează un atribut care n-a mai fost selectat pentru divizare;
Pentru fiecare valoare a atributului generează câte o subtabelă
care să conţină toate instanţele pentru care atributul are acea
valoare;
Returnează un arbore cu o ramură pentru fiecare subtabelă
nevidă, fiecare ramură având ca descendent valoarea unei clase
sau un subarbore produs prin aplicarea recursivă a algoritmului.
Observaţii
În forma prezentată mai sus, algoritmul TDIDT funcţionează doar
pentru date categoricale, însă poate fi adaptat şi pentru date
continue;
Algoritmul nu este specificat, în sensul că nu precizează ce atribut se
selectează la fiecare pas ;
La fiecare pas se poate alege orice atribut, singura restricţie fiind ca
un atribut să fie selectat o singură dată pe aceeaşi ramură;
Restricţia precizată la punctul precedent asigură terminarea
algoritmului, deoarece fiecare ramură poate fi formată din
maximum muchii, fiind numărul de atribute (variabile).
În condiţiile precizate arborele de decizie funizat de algoritmul TDIDT are
proprietăţile:
Este o reprezentare mai compactă şi echivalentă a datelor de
antrenament din tabel, în sensul că pentru orice instanţă din tabel,
valoarea clasei prezise de arborele de decizie coincide cu valoarea
clasei corespunzătoare din tabel;
Poate fi utilizat pentru pentru a clasifica o instanţă nouă, adică o
instanţă diferită de cele care aparţin datelor de antrenament.
În cele ce urmează vom considera spre exemplificare setul de date din
tabelul 12.1 prelucrat după datele utilizate în (Quinlan, 1986, pg. 81-106)
Tabelul 12. 1 Setul de date aferent problemei jucătorilor de golf
Nr.
Aspect_vreme Temperatură Umididate Vânt Clasa
crt.
Aspect – Vreme
ma nor
da nu
re mal
ă
nu nu da
da
Figura 12.1 Adaptare după (Quinlan, 1986, pg. 87)
0,5
Clasa
da 2 4 3
nu 3 0 2
Total 5 4 5
4*1.32=0.444+0.528=0.972
4*1.32+ =0.528+0.444=0.972
Entropia medie ponderată obţinută după divizarea tabelului în raport cu
atributul Aspect_vreme este :
Clasa da nu da da da da da da nu nu nu nu da da
Presupunând că punctul de tăiere este , atunci pesudo-atributul creat
are valorile categoricale din tabelul 12. 4, linia 2, iar tabelul 12.5
conţine frecvenţele aferente acestui atribut.
Tabelul 12.4 Valorile pseudo-atributului
Umiditate
58 60 66 72 75 77 78 80 89 90 91 92 94 95
(%)
T T T T T F F F F F F F F F
Clasa da nu da da da da da da nu nu nu nu da da
da 4 5 9
nu 1 4 5
Total 5 9 14
Observaţii
da 5 4 9
nu 1 4 5
Total 6 8 14
A D
B C E F
*
Distingem două cazuri:
1. Dacă înseamnă că divizarea nodului A în nodurile B şi
C a avut un efect nedorit, (a determinat creşterea erorii de
predicţie a arborelului de decizie) şi deci nodurle B şi C trebuie
eliminate. În această situaţie, A devine nod terminal, mixt şi clasa
indicată de acest nod poate fi stabilită prin aplicarea tehnicilor
prezentate la metoda pre-pruning;
2. Dacă rezultă că divizarea nodului A a avut ca rezultat
diminuarea erorii de predicţie şi deci nodurile B şi C nu se
elimină.
În concluzie, dacă se înlătură nodurile B şi C, (se face pruning)
deoarece operaţia de divizare în nodul A a avut drept consecinţă creştera
erorii de predicţie, iar în caz contrar nodurile B şi C nu se înlătură (nu se
face pruning).