Documente Academic
Documente Profesional
Documente Cultură
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Algorithm
de
Clasificare
Date de
Antrenare
NAME
Mike
Mary
Bill
Jim
Dave
Anne
RANK
YEARS TENURED
Assistant Prof
3
no
Assistant Prof
7
yes
Professor
2
yes
Associate Prof
7
yes
Assistant Prof
6
no
Associate Prof
3
no
Clasificator
(Model)
IF rank = professor
OR years > 6
THEN tenured = yes
33
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Clasificare
Date de
test
Unseen
(Jeff, Professor, 4)
NAME
Tom
Merlisa
Jeff
Joseph
RANK
YEARS TENURED
Assistant Prof
2
no
Associate Prof
7
no
Professor
4
yes
Assistant Prof
7
yes
Tenured?
Venitul
mare
mare
mediu
mic
mic
mic
Student
nu
nu
nu
da
da
da
34
Nivel creditare
normal
normal
normal
normal
excelent
excelent
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
<=30
<=30
>40
<=30
3140
3140
>40
mediu
mic
mediu
mediu
mediu
mare
mediu
nu
da
da
da
nu
da
nu
normal
normal
normal
excelent
excelent
normal
excelent
3.2. Algoritmul 1R
Ca i alte metode empirice de nvare, 1R are ca intrare un set de exemple in
care fiecare element (exemplu) din set este caracterizat de un numr de atribute i
clase.
Algoritmul se utilizeaz att pentru valori ale atributelor continue (acestea iau
valori intr-un interval), cat i discrete (nominale) . In urma operaiei de clasificare care
se lanseaz pentru fiecare atribut in parte, se obin un numr de clasificatori egali cu
numrul de atribute . Dintre acetia se alege cel mai semnificativ clasificator (criteriul
fiind data de precizia de clasificare pe care o realizeaz respectiv nivelul de eroare
pe care l are)
Deci Algoritmul 1R construiete clasificatorul pe baza unui singur atribut, selecia
acestuia, fiind fcut funcie de rezultatul clasificrii - se construiesc toi clasificatorii
corespunztori atributelor prezente, dup care se alege unul considerat reprezentativ.
Algoritmul a fost prezentat pentru prima oara in articolul : Very Simple Classification
Rules Perform Well on Most Commonly Used Datasets, Robert C. Holte, Computer
Science Department, University of Ottawa in Machine Learning 11: 63-91 1993
Pentru a ilustra aceast tehnica vom considera setul de exemple prezent in
Tabelul 3.2. Tabelul prezint datele (Quinlan, 1994) ce caracterizeaz condiiile meteo
n care se poate juca sau nu golf.
Un element din set are patru atribute din care:
doua atribute cu valori nominale:
1. outlook cu valorile sunny, overcast and rain, i
2. windy (cu valorile true i false), si
doua atribute cu valori continue:
2. temperature i
3. humidity.
Se observ prezena a doua clase Play i Dont Play
35
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Outlook
Temp.
Hum.
Windy
Class
Atribute
V
a
l
o
r
i
sunny
sunny
85
80
85
90
false
true
Dont Play
Dont Play
overcast
rainy
rainy
rainy
overcast
sunny
sunny
rainy
sunny
overcast
overcast
rainy
83
70
68
65
64
72
69
75
75
72
81
71
86
96
80
70
65
95
70
80
70
90
75
91
false
false
false
true
true
false
false
false
true
true
false
true
Play
Play
Play
Dont Play
Play
Dont Play
Play
Play
Play
Play
Play
Dont Play
Tabel 3.2 Set date care specifica condiiile in care se poate juca golf
36
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Frecvenele pentru fiecare clasa, pentru fiecare valoare a atributelor nominale este
artata in Tabelul 3.2. Regulile derivate din acest tabel i acurateea acestora este
prezentata in Tabelul 3.3
outlook
overcast
sunny
rain
Play
4
2
3
Dont Play
0
3
2
windy
true
false
Play
3
6
Dont Play
3
2
windy
37
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Discuia se va efectua pentru valori continue ale atributului Temp.
Intrare:
v
Ieire
if a are valoare v then clas este c
// clasificator
64
P
1
65
D
2
68
P
3
69
P
4
70
P
5
71
D
6
72
D
7
72
P
75
P
8
75
P
80
D
9
81
P
10
83
P
11
85
D
12
80
D
6
81
P
7
83
P
85
D
8
(3.) repeta
a. elimina separatorul dintre intervalele ce aparin aceleai clase
Temp.
Clas
Nr interval
64
P
1
65
D
2
68
P
69
P
3
70
P
71
D
72
D
4
72
P
75
P
5
75
P
38
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
b. examineaz pierderea de precizie care apare ca urmare a ndeprtrii
separatorilor
Fiecare din separatoare delimiteaz clase diferite. Eliminndu-le pe oricare
dintre acestea, scdem acurateea cuantizrii. De exemplu, eliminnd separatorul
dintre 65 i 68 obinem un nou interval de la 65 la 70 in care clas predominant este
Play. Ca urmare atributul Dont Play este clasificat incorect ca i Play, rezultnd o
reducere a acuratei de la 100% la 75%.
In clas sunt prezente : 3 valori Play
1 valoare Dont Play
Total 4 Valori
Precizie pentru Play 3 / 4=75%
Daca se va construi o regula pentru acest interval ea va fi pentru clas Play. Valorile
care urmeaz a fi clasificate cu acest clasificator vor avea deci o precizie de 75%.
Aceast transformare corespunde eliminrii unui separator care corespunde celei mai
mici reduceri a acurateei de clasificare.
Temp.
Clas
Nr interval
64
P
1
65
D
68
P
2
69
P
70
P
71
D
72
D
3
72
P
75
P
4
75
P
80
D
5
81
P
6
83
P
85
D
7
3 intervale
Temp.
64
65
Clas
P
No
Nr interval
68
P
1
69
P
70
P
71
D
72
D
2
72
P
75
P
3
75
P
80
D
4
81
P
5
83
P
85
D
6
68
P
1
69
P
70
P
71
D
72
D
72
P
2
75
P
75
P
80
D
81
P
3
83
P
85
D
75
P
80
D
81
P
2
83
P
85
D
64
P
65
D
68
P
69
P
70
P
1
71
D
72
D
39
72
P
75
P
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
(4.) Alege cel mai bun interval gsit din punctul de vedere a preciziei de clasificare.
Precizia de clasificare se calculeaz astfel:
In clas 1 sunt prezente : 7 valori Play
3 valori Dont Play
Total
10 Valori
Precizie pentru Play 7 / 10=70%
In clas 2 sunt prezente : 2 valori Play
2 valori Dont Play
Total
4 Valori
Precizie pentru Play 2 / 4=50%
Ca urmare se alege primul interval pentru construirea clasificatorului. Rezult
urmtorul set de reguli complet pentru ntregul set de date
Atribute
Reguli
Eroare
Outlook
2/5
0/4
2/5
3/10
2/4
1/7
2/6
0/1
2/8
3/6
Temp
Humidity
Windy
Eroare
totala
4/14
5/14
3/14
5/14
Se alege ca i clasificator pentru modelul datelor din set atributul Humidity deoarece
prezint eroarea cea mai mica
Observaie
(1) Pentru temperatur, valoarea 77.5 a rezultat din tabel prin medierea valorilor de
la grania celor dou intervale gsite (75+80)/2=77.5
(2) Orice metod, prin care se mapeaz un set de valori n intervale disjuncte
trebuie sa ia n considerare necesitatea de a crea ct mai multe reguli cu
intervale ct mai mici pentru asigurarea acurateei de clasificare. Acesta
reprezint o problem, deoarece apare o contradicie prin aceea c clasificatorul
astfel obinut nu acoper setul de date i deci nu generalizeaz bine. Pentru a
40
DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
rezolva aceast problema soluia este de a asigura prezena intr-o clas a mai
mult de 1 element Observaii empirice arat c limita inferioara a numrului
de elemente prezent intr-un interval de discretizare trebuie s aib o valoare de
6 pentru seturi de date cu un numr mare de elemente i de 3, pentru seturi
mici de seturi de date (mai puin de 50 elemente) [Holte et. al, 1989].
Important
n concluzie, algoritmul 1R nva prin analizarea primului nivel al arborelui
de decizie, realiznd toate testele pentru un atribut particular. O ramura va fi creat
pentru fiecare atribut. Fiecare ramura va assigna cea mai frecvent clas i va
corespunde unui clasificator posibil de luat in considerare. Se alege acel clasificator
(acea ramur) care conduce la cea mai mic eroare de clasificare. Pentru exemplul
discutat avem
Set date
Atribute
Outlook
Eroare
4/14
Model (clasificator)
Temp
Humidity
5/14
3/14
*
41
Windy
5/14