Sunteți pe pagina 1din 9

DATA MINING

MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie

3. Machine learning. Clasificarea.


4.1. Clasificarea
Clasificarea este utilizat pentru a prezice la ce clas aparine un obiect.
Problema clasificrii poate fi formulat astfel:

Bazndu-ne pe caracteristici existente n clasa care descrie datele de


antrenare, dezvoltm o descriere sau un model pentru fiecare clas.
In exemplul de mai jos se urmrete gsirea unui clasificator care s
specifice condiia de ocupare a unui post.

Algorithm
de
Clasificare

Date de
Antrenare

NAME
Mike
Mary
Bill
Jim
Dave
Anne

RANK
YEARS TENURED
Assistant Prof
3
no
Assistant Prof
7
yes
Professor
2
yes
Associate Prof
7
yes
Assistant Prof
6
no
Associate Prof
3
no

Clasificator

(Model)

IF rank = professor
OR years > 6
THEN tenured = yes

Procesul de Clasificare (1): Construirea Modelului

Avnd dat un set de date de antrenare,


(n+1) obiecte de forma (a1, a2, ,an, ck) unde
ai (1 i n) sunt atribute i
ck (1 k m) este eticheta clasei,
gsete regulile care partiioneaz setul de date n grupe disjuncte cu cei
mai muli membri n fiecare grup avnd aceiai etichet de clas.

33

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie

Avnd un set de date de te,t putem verifica dac regulile descoperite


generalizeaz satisfctor, msurnd acurateea prediciei.

Clasificare

Date de
test

Unseen
(Jeff, Professor, 4)

NAME
Tom
Merlisa
Jeff
Joseph

RANK
YEARS TENURED
Assistant Prof
2
no
Associate Prof
7
no
Professor
4
yes
Assistant Prof
7
yes

Tenured?

Procesul de Clasificare (2): Utilizarea modelului in Predicie

Datele utilizate la construcia unui model de clasificare constau din:


Un set de nregistrri fiecare nregistrare descrie un obiect.
Fiecare nregistrare are acelai numr de cmpuri (caracteristicile
obiectului).
Un cmp n aceste nregistrri conine indicatorul clasei creia
nregistrarea i aparine (cmpul Nivel_creditare din exemplu din figura
Fig. 3.1.).
Celelalte cmpuri sunt numite cmpuri independente i descriu
caracteristici individuale care compun nregistrarea.
Un set de date de antrenare este prezentat n figura 3.1
Vrsta
<=30
3140
>40
>40
>40
3140

Venitul
mare
mare
mediu
mic
mic
mic

Student
nu
nu
nu
da
da
da

34

Nivel creditare
normal
normal
normal
normal
excelent
excelent

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
<=30
<=30
>40
<=30
3140
3140
>40

mediu
mic
mediu
mediu
mediu
mare
mediu

nu
da
da
da
nu
da
nu

normal
normal
normal
excelent
excelent
normal
excelent

Fig. 3.1. Set de date de antrenare


Sunt civa algoritmi Data Mining mai importani pentru clasificare cum ar fi:
algoritmul 1R, arbori de decizie, reele neuronale, cei mai apropiai k vecini (k nearest neighbors), algoritmi genetici, modelul regulilor de asociere, etc. n continuare
se vor prezenta civa dintre aceti algoritmi.

3.2. Algoritmul 1R
Ca i alte metode empirice de nvare, 1R are ca intrare un set de exemple in
care fiecare element (exemplu) din set este caracterizat de un numr de atribute i
clase.
Algoritmul se utilizeaz att pentru valori ale atributelor continue (acestea iau
valori intr-un interval), cat i discrete (nominale) . In urma operaiei de clasificare care
se lanseaz pentru fiecare atribut in parte, se obin un numr de clasificatori egali cu
numrul de atribute . Dintre acetia se alege cel mai semnificativ clasificator (criteriul
fiind data de precizia de clasificare pe care o realizeaz respectiv nivelul de eroare
pe care l are)
Deci Algoritmul 1R construiete clasificatorul pe baza unui singur atribut, selecia
acestuia, fiind fcut funcie de rezultatul clasificrii - se construiesc toi clasificatorii
corespunztori atributelor prezente, dup care se alege unul considerat reprezentativ.
Algoritmul a fost prezentat pentru prima oara in articolul : Very Simple Classification
Rules Perform Well on Most Commonly Used Datasets, Robert C. Holte, Computer
Science Department, University of Ottawa in Machine Learning 11: 63-91 1993
Pentru a ilustra aceast tehnica vom considera setul de exemple prezent in
Tabelul 3.2. Tabelul prezint datele (Quinlan, 1994) ce caracterizeaz condiiile meteo
n care se poate juca sau nu golf.
Un element din set are patru atribute din care:
doua atribute cu valori nominale:
1. outlook cu valorile sunny, overcast and rain, i
2. windy (cu valorile true i false), si
doua atribute cu valori continue:
2. temperature i
3. humidity.
Se observ prezena a doua clase Play i Dont Play

35

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie

Outlook

Temp.

Hum.

Windy

Class

Atribute

V
a
l
o
r
i

sunny
sunny

85
80

85
90

false
true

Dont Play
Dont Play

overcast
rainy
rainy
rainy
overcast
sunny
sunny
rainy
sunny
overcast
overcast
rainy

83
70
68
65
64
72
69
75
75
72
81
71

86
96
80
70
65
95
70
80
70
90
75
91

false
false
false
true
true
false
false
false
true
true
false
true

Play
Play
Play
Dont Play
Play
Dont Play
Play
Play
Play
Play
Play
Dont Play

Tabel 3.2 Set date care specifica condiiile in care se poate juca golf

3.2.1. Construcia clasificatorului pentru cazul atributelor nominale


cu valori discrete
Pentru a demonstra cum funcioneaz algoritmul, vom considera numai valorile
nominale prezente in setul de date: Outlook i respectiv Windy.
Intrare:
a
// mulimea atributelor ce definesc un element din setul de date
Ieire
if a are valoare v then clasa este c
// clasificator
For fiecare atribut a, construiete o regula astfel:
For fiecare valoare nominala v din domeniul lui a,
Selecteaz acele elemente unde a are valoarea v.
Fie c cea mai frecventa clasa in acest setul de date.
Aduna urmtoare clauza la regula pentru a:
if a are valoare v then clasa este c
Calculeaz acurateea clasificrii pentru regula introdus.
Utilizeaz regula cu cea mai buna acuratee de clasificare

36

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Frecvenele pentru fiecare clasa, pentru fiecare valoare a atributelor nominale este
artata in Tabelul 3.2. Regulile derivate din acest tabel i acurateea acestora este
prezentata in Tabelul 3.3
outlook
overcast
sunny
rain

Play
4
2
3

Dont Play
0
3
2

windy
true
false

Play
3
6

Dont Play
3
2

Tabel 3.2: Frecventa valorilor in atributele nominale


outlook

windy

If overcast then Play


(4/4)
else if sunny then Dont Play (3/5)
else if rain then Play
(3/5)

If true then Dont Pay (3/6)


else if false then Play (6/8)

Precizie = 10/14 (71.4%)

Precizie = 9/14 (64.3%)

Tabel 3.3: Reguli derivate din Tabelul 3.2


Pentru fiecare atribut si valoare, clasa aleasa este aceea in care apare cel mai
frecvent combinaia atribut valoare de exemplu cnd atributul outlook este sunny,
clasa aleasa este Dont Play deoarece aa cum se vede din tabelul 4.2, acesta apare de
trei ori in timp ce in clasa Play apare numai de doua ori. Daca cele mai mari frecvente
sunt egale se procedeaz la o alegere aleatoare a uneia din ele. De exemplu in regula
windy din tabelul 3 daca if true then Play se alege, ea este la fel de acceptabila ca i
regula if true then Dont Play care este artata. Din aceste exemple se observa ca
atributul windy care are valoarea true nu are nici o contribuie in a decide daca
vremea are sau nu o contribuie in a stabili daca se joaca sau nu golf.
3.2.2. Construcia clasificatorului pentru cazul atributelor
cu valori continue.
Tehnica presupune construirea de intervale in care, valoarea tributului luat in
considerare pentru construcia clasificatorului ia valori. Numrul de intervale este egal
cu numrul de clase in care elementele din setul de date sunt reclasificate.
Pentru a demonstra cum funcioneaz algoritmul
valorile continue prezente in setul de date Temperature

37

vom considera numai


i respectiv Humidity.

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
Discuia se va efectua pentru valori continue ale atributului Temp.
Intrare:
v

// mulimea valorilor ce definesc un atribut din setul de date

Ieire
if a are valoare v then clas este c

// clasificator

1. Sorteaz elementele dup valoarea v atributului.


2. Construiete intervale, prin plasarea unei separator intre fiecare pereche de diferite
valori.
3. repeta
a. elimina separatorul dintre intervalele ce aparin aceleai clase,
b. examineaz pierderea de precizie care apare ca urmare a ndeprtrii
separatorilor,
c. elimin cele mai puin costisitoare puncte de separare (in eventualitate de
egalitate se alege unul in mod aleatoriu pana cnd nu mai exista separatori);
until numrul de intervale este diferit de numrul de clase
4. Alege cel mai bun interval gsit din punctul de vedere a preciziei de clasificare.
Modul in care funcioneaz algoritmul este artat pentru setul de date prezentat mai
sus. Succesiunea de operaii prezint urmtoarea desfurare pentru cele doua clase in
care este reclasificat setul de exemple (P---Play i D---Dont Play):
(1.) Sorteaz elementele dup valoarea v atributului.
(2.) Construiete intervale, prin plasarea unei separator intre fiecare pereche de
diferite valori
Temp.
Clas
Nr interval

64
P
1

65
D
2

68
P
3

69
P
4

70
P
5

71
D
6

72
D
7

72
P

75
P
8

75
P

80
D
9

81
P
10

83
P
11

85
D
12

80
D
6

81
P
7

83
P

85
D
8

(3.) repeta
a. elimina separatorul dintre intervalele ce aparin aceleai clase
Temp.
Clas
Nr interval

64
P
1

65
D
2

68
P

69
P
3

70
P

71
D

72
D
4

72
P

75
P
5

75
P

Operaia are ca efect reducerea numrului de intervale . In acest prima iteraie in


exemplul dat reducerea este de la 12 la 8 intervale

38

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
b. examineaz pierderea de precizie care apare ca urmare a ndeprtrii
separatorilor
Fiecare din separatoare delimiteaz clase diferite. Eliminndu-le pe oricare
dintre acestea, scdem acurateea cuantizrii. De exemplu, eliminnd separatorul
dintre 65 i 68 obinem un nou interval de la 65 la 70 in care clas predominant este
Play. Ca urmare atributul Dont Play este clasificat incorect ca i Play, rezultnd o
reducere a acuratei de la 100% la 75%.
In clas sunt prezente : 3 valori Play
1 valoare Dont Play
Total 4 Valori
Precizie pentru Play 3 / 4=75%
Daca se va construi o regula pentru acest interval ea va fi pentru clas Play. Valorile
care urmeaz a fi clasificate cu acest clasificator vor avea deci o precizie de 75%.
Aceast transformare corespunde eliminrii unui separator care corespunde celei mai
mici reduceri a acurateei de clasificare.
Temp.
Clas
Nr interval

64
P
1

65
D

68
P
2

69
P

70
P

71
D

72
D
3

72
P

75
P
4

75
P

80
D
5

81
P
6

83
P

85
D
7

c. elimina cele mai puin costisitoare puncte de separare (in eventualitate de


egalitate se alege unul in mod aleatoriu pana cnd nu mai exista separatori;
Acum delimitatorul dintre 64 i 65 poate fi eliminat fr o pierdere a acurateei
6 intervale
Temp.
64
65
Clas
P
D
Nr interval

3 intervale
Temp.
64
65
Clas
P
No
Nr interval

68
P
1

69
P

70
P

71
D

72
D
2

72
P

75
P
3

75
P

80
D
4

81
P
5

83
P

85
D
6

68
P
1

69
P

70
P

71
D

72
D

72
P
2

75
P

75
P

80
D

81
P
3

83
P

85
D

75
P

80
D

81
P
2

83
P

85
D

until numrul de intervale este diferit de numrul de clase


Temp.
Clas
Nr interval

64
P

65
D

68
P

69
P

70
P
1

71
D

72
D

39

72
P

75
P

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
(4.) Alege cel mai bun interval gsit din punctul de vedere a preciziei de clasificare.
Precizia de clasificare se calculeaz astfel:
In clas 1 sunt prezente : 7 valori Play
3 valori Dont Play
Total
10 Valori
Precizie pentru Play 7 / 10=70%
In clas 2 sunt prezente : 2 valori Play
2 valori Dont Play
Total
4 Valori
Precizie pentru Play 2 / 4=50%
Ca urmare se alege primul interval pentru construirea clasificatorului. Rezult
urmtorul set de reguli complet pentru ntregul set de date
Atribute

Reguli

Eroare

Outlook

Sunny Dont Play


Overcast Play
Rainy Play
<=77.5 Play*
>77.5 Dont Play
<=82.5 Play
>82.5 and<=95.5 Dont Play
>95.5 Play
False Play
True Dont Play*

2/5
0/4
2/5
3/10
2/4
1/7
2/6
0/1
2/8
3/6

Temp
Humidity

Windy

Eroare
totala
4/14

5/14
3/14

5/14

Se alege ca i clasificator pentru modelul datelor din set atributul Humidity deoarece
prezint eroarea cea mai mica
Observaie
(1) Pentru temperatur, valoarea 77.5 a rezultat din tabel prin medierea valorilor de
la grania celor dou intervale gsite (75+80)/2=77.5
(2) Orice metod, prin care se mapeaz un set de valori n intervale disjuncte
trebuie sa ia n considerare necesitatea de a crea ct mai multe reguli cu
intervale ct mai mici pentru asigurarea acurateei de clasificare. Acesta
reprezint o problem, deoarece apare o contradicie prin aceea c clasificatorul
astfel obinut nu acoper setul de date i deci nu generalizeaz bine. Pentru a

40

DATA MINING
MACHINE LEARNING.
Algoritmul 1R, Arbori de Decizie
rezolva aceast problema soluia este de a asigura prezena intr-o clas a mai
mult de 1 element Observaii empirice arat c limita inferioara a numrului
de elemente prezent intr-un interval de discretizare trebuie s aib o valoare de
6 pentru seturi de date cu un numr mare de elemente i de 3, pentru seturi
mici de seturi de date (mai puin de 50 elemente) [Holte et. al, 1989].
Important
n concluzie, algoritmul 1R nva prin analizarea primului nivel al arborelui
de decizie, realiznd toate testele pentru un atribut particular. O ramura va fi creat
pentru fiecare atribut. Fiecare ramura va assigna cea mai frecvent clas i va
corespunde unui clasificator posibil de luat in considerare. Se alege acel clasificator
(acea ramur) care conduce la cea mai mic eroare de clasificare. Pentru exemplul
discutat avem
Set date

Atribute
Outlook
Eroare
4/14
Model (clasificator)

Temp
Humidity
5/14
3/14
*

41

Windy
5/14

S-ar putea să vă placă și